Deliberative Alignment: Reasoning Enables Safer Language Models
deliberative alignment(熟考的整合)
LLMに倫理原則の記述を与えるだけで,それに沿った振る舞いをさせられる.
以前のように,この行動は良い/悪いという評価をたくさんフィードバックする形で教え込まなくて良くなる
概要
LLMの倫理的な調整(アラインメント,例:安全ポリシー遵守,幻覚の抑制)において,大規模な「人がラベル付けしたデータ」に頼らず,「記述された原則」に基づく自律的な思考・判断をLLMにさせる手法が提案され,"プロンプトによる誘導(脱獄)に対する頑健性の向上"と"過剰な拒否の抑制"が確認された.具体的には,推論時の思考の連鎖(CoT)を用いて,LLM自身が「正しい理由のために正しい」と考えて安全な振る舞いをしていると示唆される結果が得られた.
Melody Y. Guan, Manas Joglekar, Eric Wallace, Saachi Jain, Boaz Barak, Alec Helyar, Rachel Dias, Andrea Vallone, Hongyu Ren, Jason Wei, Hyung Won Chung, Sam Toyer, Johannes Heidecke, Alex Beutel, and Amelia Glaese. 2025. "Deliberative Alignment: Reasoning Enables Safer Language Models." arXiv preprint arXiv:2412.16339. https://arxiv.org/abs/2412.16339
ーーー
2025/2/2 19:01
original: /tomiokario-close/Deliberative Alignment: Reasoning Enables Safer Language Models